大模型如何理解图像、音频等多模态内容(多模态 Tokenization) 刷短视频时,那条直播带货的虚拟主播连你家乡的拐弯口音都学得像。 模态 音频 模态tokenization tokenizat 2025-09-30 05:22 5